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@ Extremschmalband-Obertragungssystem 



Ein Ubertragungssystem an dessen Enden jeweils eine 
Vorrichtung zum Analysieren menschlicher Sprache und 
zum Vergleichen jedes Wortes mit vorgespeicherten Wor- 
tern zur Wort- und Sprechererkennung vorgesehen ist, wo- 
bei die Nachricht dann mit charakteristischen Eigenschaften 
der Stimme des Sprechers digitalisiert wird und ein Signal 
zur Obertragung mit einer Geschwindigkeit von etwa 75 Bit 
pro Sekunde gebildet wird, und eine Obertragung der digita- 
lisierten Nachricht zu einem entfernten Terminal erfolgt, das 
diese Nachricht in eine gesprochene Nachricht in der synte- 
tisierten Stimme des urspriinglichen Sprechers umwandelt. 
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Extremschmalpand-UbertraKungssystem 
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Patentanspruche 



30 * 

^Extremschmalband-Ubertragungssystem mit einem Wandler 
^zum Umwandeln menschlicher Sprache in elektrische Sig- 
nale, gekennzeich.net durch: 

35 eine Analysiervorrichtung (15), die elektrische Sig- 

nale votn Wandler (14) empfangt und eine Vielzahl von 
Signalen abgibt, die eine Vielzahl von Eigenschaf ten 
darstellen, die eine menschliche Stimtne charakteri- 



• 
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sieren ; 



eine Speichervorrichtung (20) in der Signale ge- 
speichert sind, die eine Vielzahl gesprochener Wor- 
ter darstellen; 

eine Worterkennungsvorrichtung (16), die mit der Ana- 
lysiervorrichtung (15) und mit der Speichervorrich- 
tung (20) zum Empfang von zumindest eines Teiles der 
Vielzahl von Signalen zum Vergleichen des empfangenen 
Teiles der Vielzahl von Signalen mit den gespeicher- 
ten Signalen verbunden ist, und Signale abgibt , die 
speziell gesprochene WSrter darstellen, und 

... . . • • . • . . , •••"«• 

i i . ■ ' i • • : 

eine Digitalumwandlungsvorrichtung , die mit der Wort- 
erkennungsvorrichtung (16) zum Empfang der spezifisch 
gesprochenen Worter darstellenden Signale verbunden 
ist, zum Umwandeln der empfangenen Signale in eine 
Digitalform mit einer Geschwindigkeit von weniger 
als 300 Bit pro Sekunde. 

Extremschmalband-Ubertragungssystem nach Ansrpuch 1 , 
dadurch gekennzeichnet, dafi. die Analy- 
siervorrichtung (15) eine Analysierschaltung (32) fur 
eine linear vorhersagbare Codierung aufweist. 

Extremschmalband-Obertragungssystem nach Anspruch 1 
Oder 2, dadurch gekennzeichnet, daS die 
Worterkennungsvorrichtung (16) eine Vorrichtung (42, 
43, 45) zum Erkennen des Beginns und des Endes eines 
gesprochenen Wortes aufweist. 

Extremschmalband-Ubertragungssystem nach einem der An- 
spruche 1 bis 3, dadurch gekennzeichnet, 
daB die Speichervorrichtung (20) Signale gespeichert 
hat, die eine Vielzahl von WSrtern darstellen, die von 
einer Vielzahl unterschiedlicher Induviduen gesprochen 
wurden, und daB eine Sprechererkennungsvorrichtung ( 1 8) 
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1 mit der Speichervorrichtung ;(20 ) und der Analysier- 

vorrichtung (15) vorgesehen ;ist , die zumindest einen 
Teil der Vielzahl von Signalen von der Analysiervor- 
richtung (15) empfangt, die erapfangenen Signale rait 

5 den gespeicherten Signalen vergleicht und Signale ab- 

gibt, die spezielle Worter darstellen, die von einer 
spezif ischen , der unterschiedlichen Individuen ge- 
sprochen wurden. 

10 5. Extremschmalband-ubertragungssystem nach Anspruch 4, 

dadurch gekennzeichnet, daB die Sprecher- 
erkennungsvorrichtung (18) eine Schaltung zum Modifi- 
zieren gespeicherter Worter eines Individium nach einer 
Sprechererkennung aufweist. 

15 

6. Extremschmalband-ubertragungssystem nach Anspruch 5, 
dadurch gekennzeichnet, daB die Analy- 
siervorrichtung (15) eine Schaltung (32) zum Erhalten 
von LPC-Koef f izienten einer linearen vorhersagbaren 
20 Codierung und die Sprechererkennungsvorrichtung (18) 

eine Schaltung zur Mittelwertbildung der LPC-Koeff izien- 
ten aufweist. 

7- Extremschmalband-ubertragungssystem nach Anspruch 6, 
25 dadurch gekennzeichnet,' daB die Sprecher- 

erkennungsvorrichtung (18) eine Schaltung (20) zum Zu- 
riickstellen einer Entscheidung bezuglich der Identi- 
tat des Sprechers aufweist, wenn er der Vergleich ei- 
nes gesprochenen Wortes mit gespeicherten Signalen, 
30 die eine Vielzahl von einer Vielzahl von unterschiedli- 

chen Induviduen gesprochenen Wortern darstellen, inner- 
halb eines vorbestimmten Unsicherheitsbereichs liegt. 



8. Extremschmalband-Obertragungssystem nach einem der 
35 vorhergehenden Anspriiche, dadurch gekenn- 

zeichnet, daB die Signalumwandungsvorrichtung 
(20) eine Einrichtung zum Umwandeln von Buchstaben 
jedes spezifischen gesprochenen Wortes in ASCII Digi- 
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talcodierungen fUr eine ubertragung 

9. Extremschmalband-Ubertragungssystem nach einera der 
Anspruche 4 bis 7, gekennzeichnet durch 
eine Nachrichtenformatierungsvorrichtung (20), die mit 
der Spreehererkennungsvorrichtung (18) und der Wort- 
erkennungsvorrichtung C 1 6 ) zum Formatieren jeder in 
den Wandler gesprochenen Nachricht in ein elektrisches 
Digitalsignal verbunden ist, das eine Vielzahl von . 
Bits enthalt, die die Nachricht darstellen, aowie eine 
Vielzahl von Bits, die den Sprecher charakterisieren . 

10. Extremschmalband-Ubertragungssystem nach Anspruch 9, 

dadurch gekennzeichne t, dafi die Nachricht- 
formatierungsvorrichtung auch Bits verarbeitet , die 
Eigenschaften darstellen, die die Stimme des Sprechers 
charakterisieren . 



11. Extremschmalband-Obertragungssystem nach Anspruch 10, 
gekennzeichnet, durch eine Vorrichtung 
(20) zum ttbertragen der Digitalsignale von der Um- 
wandlungsvorrichtung zu einer entfernt angeordneten 
Einheit (12), eine Vorrichtung (20) zum Empfangen von 
Digitalsignalen und einer Synlhetisiervorrichtung (22) 
zum Umwa;ndeln der Digitalsignale in die synthetisierte 
menschliche Sprache, die charakteristisch fur die Stim- 
me des Sprechers ist. 

12. Extremschmalband-Obertragungsverfahren, gekenn- 
zeichnet durch die Schritte 

Umwandeln von menschlicher Sprache in elektrische 
Signale / 

Analysieren der elektrischen Signale / um eine Vielzahl 
von Signalen abzugeben , die eine Vielzahl von Eigen- 
schaften darstellen, die eine menschliche Stimme 
charakterisieren / 



1 Speichern von Signalen, die eine Vielzahl von ge- 

sprochenen Wortern darstellen, 

Vergleichen zumindest einiger der Vielzahl von Sig- 
5 nalen mit den gespeicherten Signalen, urn spezifische 

Worter in der menschlichen Sprache zu bestimmen und 
Signale abzugeben, die die spezifischen Worter dar- 
stellen, und 

10 Umwarideln der abgegebenen Signale, die spezifische 

Worter darstellen in eine Digitalform mit einer Ge- 
schwindigkeit geringer als 300 Bits pro Sekunde. 



13. Verfahren nach Anspruch 12, gekennzeich- 
n e t durch Erkennen des Beginns und des Endes jedes 
gesprochenen Worts vor dem Vergleichen, 

14. Verfahren nach Anspruch 12 oder 13, dadurch g e - 
kennzeichnet, dafi das Speichern eine Spei- 
chern von Signalen umf alit , die eine Vielzahl von von 
einer Vielzahl unterschiedlicher Induviduen gesproche- 
nen Wortern darstellen und dafi das Vergleichen das Zu- 
fuhren von Signalen umfafct, die reprasentativ sind 
fur das individuelle Sprechen der spezifischen Worter. 

15. Verfahren nach einem der Anspruche 12 bis 14, dadurch 

ge. kennzeichnet, dafi beim Analysieren 

Koef fizienten mit linearer vorhersagbarer Codierung 

erzeugt und die Koef fizienten vor dera Vergleichen ge- 
30 

mittelt werden. 



20 



25 



16. Verfahren nach einem der Anspruche 12 bis 15, dadurch 
gekennzeichnet, daft das Vergleichen das 
Zuruckstellen einer Entscheidung bezuglich des induvi- 
duellen Sprechens umfafit, wenn der Vergleich eines 
gesprochenen Wortes mit gespeicherten Signalen, die ftir 
eine Vielzahl von durch eine Vielzahl von unterschied- 



10 
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lichen Induviduen gesprochenen Wortern sind, inner- 
halb eines vorbestimmten Unsicherheitsbereichs liegt. 

17. Verfahren nach einem der Anspriiche 12 bis 16, g e - 

kennzeichnet durch Modifizieren gespeicher- 
ter Signale, die eine Vielzahl von von einem Induviduum 
gesprochenen Wortern darstellen, nachdem dieses spe- 
zielle Induviduumerkannt worden ist/ und gemafi der zu- 
letzt gesprochenen Sprache des Individuums . 



18. Verfahren nach einem der Anspriiche 12 bis 17, dadurch 
gekennzeichnet, dali eine Vielzahl vorbe- 
stimrater Nachrichten gespeichert und dem Sprecher ei- 
ne Liste mSglicher nSchster Worter nach Erkennung 

15 des Endes eines Wortes angezeigt wird. 

19. Verfahren nach einem der Anspriiche 12 bis 18, g e - 
kennzeichnet durch Formatieren der menschli- 
chen Sprache nach Umwandlung in die Digitalform in ein 

20 elektrisches Digitalsignal mit einer Vielzahl von Bits, 

die eine Nachricht darstellen und eine Vielzahl von 
Bits, die charakteristische Eigenschaf ten der menschli- 
chen Stimme darstellen, und ubertragen des elektrischen 
Digitalsignals zu einem entfernten Terminal. 

25 

20. Verfahren nach Anspruch 19, gekennzeich- 

n e t durch Empfangen eines von einem entfernten Ter- 
minal ausgesandten elektrischen Digitalsignals und Um- 
wandeln des empfangenen Signals in eine gesprochene 
30 Nachricht in einem synthe- 

tisierten Stimme, die angenShert die charakteristischen 
Eigenschaf ten des ursprUnglichen Sprechers am entfern- 
ten Terminal hat. 



35 
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Extremschmalband-ubertragungssystem 



20 

Beschreibung 



In iibertragungssystemen ist es auBerst wiinschenswert , 
Nachrichten raittels Sprache auszutauschen . Andererseits 

25 ist es erwttnscht, digitale Schaltungen zu verwenden, da 
ein Grofiteil dieser Schaltungen auf einera einzigen inte- 
grierten Schaltungschip untergebracht werden konnen, was 
den erf orderlichen Raum- und Energiebedarf . wesentlich 
verringert. Digitale Darstellungen der menschlichen Spra- 

30 che erfordern jedoch im allgemeinen eine verhaltnismaBig 
grofce Bandbreite, so dafl sie fur viele Arten von Ubertra- 
gungsmedien, etwa Telef onleitungen oder dergleichen, nicht 
geeignet sind. Die Bit-Dbertragungsgeschwindigkeit (Band- 
breite) von Nachrichten soil deshalb so niedrig wie mog- 

35 lich sein. Unter "Schroalband « wird ublicherweise eine 
Bit-Obertragungsgeschwindigkeit von etwa 2 000 Bits pro 
Sekunde verstanden. Bekannte Vorrichtungen arbeiten Uber 
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1 300 Bits pro Sekunde und alles, was darunter liegt, soil 
als "Extremschmalband" bezeichnet werden. 

Die vorliegende Erfindung betrifft ein Extremschmalband- 
5 Ubertragungssystem und ein Verfahren zura Nachrichtenaus- 
tausch in einem extremen Schmalband, wobei menschliche 
Sprache in elektrische Signale umgewandelt und analysiert 
wird, so daB sich Signale ergeben, die Eigenschaf ten dar- 
stellen, welche das spezielle menschliche Sprechen charak- 

10 terisieren . "Die Worter der Nachricht werden dann mit Wor- 
tern in einem Speicher verglichen, so daB das spezielle 
ttrfc sftennt wird und falls erwunscht auch der spezielle Spre- 
cher, der dieses Wort ausgesprochen hat. Ein das speziel- 
le Wort darstellendes Digitalsignal , das eine ASCII- Oder 

15 numerische Kpdierung sein kann und die Position des Wor- 
tes im Speicher angibt, wird mit Digitalsignalen kombi- 
niert, die die Stimme des Sprechers charakterisieren , da- 
mit sich eine Nachricht ergibt mit einer Bit-Geschwindig- 
keit wesentlich unter 300 Bit pro Sekunde, wobei die Nach- 

20 richt zu einem entfernten Endgerat ubertragen wird* Die- 
ses Endgerat synthetisiert die menschliche Stimme, so daB 
die Nachricht derart ertont, als wenn die ursprungliche 
Stimme sprechen wurde. Verschiedene Verfahren und Einrich- 
tungen dienen dazu, die korrekte Erkennung jedes Wortes 

25 und des speziellen Sprechers zu gewahrleisten einschlieB- 
lich einer Mittelwertbildung von LPC-Koef f izienten , Hin- 
ausschieben einer Entscheidung bezuglich der Identitat des 
Sprechers, wenn der Vergleich der gesprochenen mit den ge- 
speicherten Wortern innerhalb eines vorbestimmten Unsicher- 

30 heitsbereichs liegt und Modifizieren beziehungsweise auf 
den neuesten Stand Bringen der gespeicherten Worter eines 
individuellen Sprechers, nachdem dieser erkannt wurde. 



35 



Der Erfindung liegt die Aufgabe zugrunde, ein neues und 
verbessertes Extremschmalband-ubertragungssystem anzuge- 

ben . 



1 



Ferner soil ein verbessertes Verfahren des Nachrichtenaus- 
tausches mittels Extremschmalband aufgezeigt werden. 



An der empf angenden Endstation soil eine Stimme syntheti- 
5 siert werden, die gleich derjenigen des ursprunglichen 
Sprechers ist. 

Die Erkennung des Sprechers soli aufierst genau erfolgen. 

10 Ein Ausfuhrungsbeispiel der Erfindung wird nachstehend 
unter Bezugnahme auf die Zeichnung beschrieben. Es zei- 
gen 

Figur 1 ein vereinf achtes Blockschaltbild eines 

Extremschmalbandnachrichten- oder liber tra- 
15 gungssystems der Ausf uhrungsf orm der Er- 

findung, 

Figur 2 ein Blockschaltbild der LPC-Analysierein- 
heit des Systems nach Figur 1 , 

Figur 3 ein Blockschaltbild der CPU-Einheit des 
20 Systems nach Figur 1 , 

Figur 4 ein Blockschaltbild der Worterkennungsein- 
heit des Systems nach Figur 1 , 

Figur 5 ein Blockschaltbild der Synthetisiereinheit 
des Systems nach Figur 1 , 
25 Figur 6 ein Flufidiagramm zur Veranschaulichung des 

Beginns und der Beendigung einer Wortidenti- 
fikation in der Worterkennungseinheit der 
Figur 4, 

Figur 7 ein FluSdiagramm beziehungsweise ein Syntax- 
30 baum bestimmt fur militarische Zwecke und 

Figur 8 vier typische Anzeigebilder im Zusammenhang 
mit dera FluBdiagramm der Figur 7- 

Figur 1 zeigt das Extremschmalband-Ubertragungssystem ge- 
35 maB dem Ausfuhrungsbeispiel der Erfindung. Ein Ortstermi- 
nal 10 und ein entferntes Terminal 12 sind uber ein geeig 
netes Mittel, etwa Telef onleitungen oder dergleichen, ver 
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1 bunden. Das Ortsterminal 10 weist ein Mikrofon 14 zura Um- 
wandeln der menschlichen Sprache in elektrische Signale 
in Ublicher Art auf und ist mit einer LPC-Analysierein- 
heit 15 und einer Worterkennungseinheit 16 verbunden. 
5 LPC-Analyse bedeutet Analyse einer linearen vorhersagba- 
ren Kodierung. Die LPC-Analysiereinheit oder -schaltungs- 
platte 15 ist an eine zentrale Verarbeitungseinheit CPU 18 
angeschlossen, die wiederum mit einem Rechner 20 in Ver- 
bindung steht, der ein Tastenfeld, einen Austauschpiatten- 

10 speicher ( Floppydiscspeicher ) und eine Sichtanzeige auf- 
weist. Die Worterkennungseinheit 16 ist mit dem Perso- 
nalrechner 20 und eine Synthetisiereinheit oder -schal- 
tungsplatte 22 ist ebenfalls mit dem Rechner 20 verbunden. 
Der Ausgang der Synthetisiereinheit 22 liegt an Kopfho- 

15 rem 23 oder einem anderen Wandler geeigneter Art zum Um- 
wandeln elektrischer Signale von der Synthetisierein- 
heit 22 in Schall- 

Figur 2 zeigt in grofierer Einzelheit ein Blockschaltbild 

20 der LPC-Analysiereinheit 15 in Form eines vollstSndigen 
digitalen Sprachverarbeitungs systems, wie es im einzelnen 
in der noch schwebenden US-Patentanmeldung mit der Be- 
zeichnung "Digital Voice Processing System" und dem Akten- 
zeichen 309 640 vom 8. Oktober 1981 beschrieben ist. Die 

25 LPC-Analysiereinheit ist nur ein Teil des in Figur 2 ver- 
anschaulichten Systems und ist im einzelnen in der 
US-PS 4 378 469 erlautert. Das vollstandige Verarbei- 
tungssystem ist deshalb beschrieben, well es einen Teil 
der LPC-Analysiereinheit 15 darstellt und der Syntheti- 

30 sierteil der Einheit 15 zur Synthetisierung der mensch- 
lichen Stimme verwendet werden kann , so dafi sie am ent- 
fernten Terminal 12 wie das Sprechen eines Sprechers er- 
tont. Im vorliegenden System wird der Synthetisierer der 
Einheit 15 nicht verwendet. Der Fachmann erkennt jedoch, 

35 dafc diese Einheit ohne weiteres an Stelle der Syntheti- 
siereinheit 22 eingesetzt werden kann. 
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1 Gemafi Figur 2 werden Tonf requenzsignale von dem Mikro- 
fon 14 iiber eine AVR-Schaltung 25 mit automatischer Ver- 
starkungsregelung und ein Tief pafcf liter 26 einer Abtast- 
und Halteschaltung 28 zugefUhrt. Diese arbeitet mit einem 
5 Analog- /Digitalwandler 30 zusammen, uro fUr jede durch die 
Abtast- und Halteschaltung 28 durchgef Uhrte Abtastung eine 
12 Bit-Digitaldarstellung abzugeben . Diese Digitalwerte 
von dem A/D-Wandler 30 werden einer LPC-Analysiereinheit 32 
zugefUhrt, die in der vorgenannten Patentschrif t ira ein- 
10 zelnen beschrieben ist. Die LPC-Analysiereinheit 32 gibt 
mehrere Signale ab, die unterschiedliche Eigenschaf ten 
darstellen, die eine menschliche Stimme charakterisieren , 
wie den Tonhohenf requenzbereich und eine Abschatzung der 
vokalen Spurlange sowie wahlweise einsetzbare zusatzliche 
!5 Eigenschaf ten, wie die glottale Erregungsform im Frequenz- 
bereich und der Heiserkeitsgrad etc. Die Signale von der 
LPC-Analysiereinheit 32 umfassen auch einen RMS-Durch- 
schnittswert und eine vorbestimmte Anzahl von LPC-Koeffi- 
zienten, namlich in diesem Ausf uhrungsbeispiel zehn. Alle 
20 diese Signale von der LPC-Analysiereinheit 32 werden iiber 
eine Schnittstelle 34 der CPU 18 zur Speicherung und Ver- 
arbeitung zugefUhrt. Ein detaillierteres Blockschaltbild 
der CPU 18 ist in Figur 3 gezeigt. Bei diesem Ausf uhrungs- 
beispiel ist die CPU 18 die im Handel erhaltliche 
25 CMT-68K-CPU. Da die in Figur 3 veranschaulichte CPU 18 

im Handel erhaltlich ist, kennt der Fachmann -die Arbeits- 
weise. Da alle BIScke ausreichend definiert sind , soli de 
ren Funktion nicht im einzelnen beschrieben werden. 

30 obwohl die verschiedensten Einrichtungen als Worterken- 
nungseinheit 16 verwendet werden k5nnen, kommt bei der 
vorliegenden Ausf uhrungsf orm die im Handel erhaltliche 
Einheit VRM102 zum Einsatz, die anhand der Figur 4 erlau- 
tert wird. Die Tonf requenzsignale vom Mikrofon 14 werden 

35 an den Audioeingang angelegt und Uber einen Vorverstar- 
ker 35 zum 16 Filter-Analysierer 37 geleitet. Der 16 Fil- 
ter-Analysierer 37 fUhrt grundsatzlich die Analysierf unk 
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1 tion der LPC-Analysiereinheit durch und der Fachmann er- 
kennt, daB eine Worterkennungseinheit auch auf Signale der 
LPC-Analysiereinheit 15 basieren kann. Das Ausgangssignal 
des 16 Filter-Analysierers 37 wird ttber einen Gleichrich- 
5 ter 39 an einen 8 Bit-Analog- /Digitalwandler 40 angelegt. 
Dieser A/D-Wandler 40 ist mit einem 6802 Mikroprozessor 42, 
einem 4K-RAM-Speicher 43 und einem 4K-R0M-Speicher 45 ver- 
bunden. Die Worterkennungseinheit 16 besitzt auch mehrere 
Anschlusse und Puffer zum Nachrichtenaustausch mit dem 
10 Personalrechner 20, dessen Funktion bekannt ist und hier 
nicht im einzelnen beschrieben wird. 

Spektralamplituden des Gleichrichters 39 werden alle 5 ms 
durch den A/D-Wandler 40 ausgelesen. Das System mi&t die 

15 Spektraldif ferenz zwischen dem augenblicklichen Spektrum 
und dem Hintergrundrauschen . tfberschreitet diese Dif fe- 
renz einen ersten Schwellenwert , dann markiert das System 
den mSglichen Beginn eines Wortes und spektrale Abtastun- 
gen werden in dem »UNBEKANNTEN"-Schablbnenspeicher 

20 4K-HAM-Speicher 43 aufgezeichnet . Nun wird die Empfind- 
lichkeit auf Spektralanderungen erhoht und neue Spektren 
werden immer dann aufgezeichnet, wenn eine gegen einen 
zweiten Schwellenwert gemessene geringfugige Snderung 
zwischen dem augenblicklichen und dem letzten Spektrum 

25 auftritt. Bei jeder signif ikanten finderung wird ein im 
Personalrechner 20 angeordneter Abtastzahler (NSAMP) auf- 
gezahlt. Diese ZMhlung mufi ein Minimum von MINSAM, nSm- 
lich 16 unterschiedliche Spektralf ormen erreichen, bevor 
das System ein Wort als gUltig erklart, sonst wird der 

30 schall als Hintergrundrauschen bestimmt. Jeder 5 ms-Rahmen, 
der keine signif ikante SpektralSnderung aufweist, ist ein 
Hinweis auf das Wortende. Vergehen 160 ms ohne Spektruras- 
anderung, dann wird das letzte Spektrum als wahrscheinli- 
ches Wortende erklart und eine MusterUbereinst immungsprii- 

35 fung beginnt. Ein Flufidiagramm dieses Verfahrens ist in 
Fig. 6 veranschaulicht . 
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1 Der Ablauf beginnt mit einem Zustand 47, der mit "Ruhezu- 
stand, kein Wort" bezeichnet ist. Der Abtastzahler (NSAMP ) 
beginnt bei Null zu zahlen und wenn die Differenz zwischen 
dem augenblicklichen Spektrum und dem Hintergrundrauschen 
5 den Schwellenwert t1 Uberschreitet , da-nn lfiuft das Verfah- 
ren zum Zustand 48, der mit "mSg'licher Wortbeginn" be- 
zeichnet ist. Uberschreitet die Differenz zwischen dem 
augenblicklichen und dem letzten Spektrum nicht den zwei- 
ten Schwellenwert t2, dann geht der Ablauf zum Kreis 49, 
10 der mit "NSCNG = NSCHG + 1" bezeichnet ist. Ist die Zeit 
seit der letzten Spektralanderung kurz, dann kehrt der 
Ablauf zuruck zum Zustand 48, urn die Messung von Spektral- 
Snderungen zwischen dem augenblicklichen und dem letzten 
Spektrum f ortzusetzen . Ist die Zeit seit der letzten Spek- 
15 tralanderung lang - bei dem vorliegenden Ausf Uhrungsbei- 
spiel etwa 160 ms - dann folgt im Ablauf der Zustand 50, 
der mit "mogliches Wortende" bezeichnet ist. Ist die Zah- 
lung in dem Abtastzahler geringer als 16, dann kehrt der 
Ablauf zuruck zum Zustand 47 und beginnt erneut und die 
20 spektralanderungen werden als zu kurz fur ein Wort be- 
trachtet, so dafi sie Hintergrundrauschen darstellen mtts- 
sen. uberschreitet die Zahlung des Abtastzahlers den Wert 16, 
dann folgt der Zustand 52, • mit "Wortende, stelle Ober- 
einstimmung des Musters mit Ausgangswert her". Somit stellt 
25 das System fest, dafi ein Wort gesprochen wurde und es be- 
ginnt die MusterUbereinstimmungsprufungi 

Sobald die Spektralanderung zwischen dem augenblicklichen 
und letzten Spektrum den Schwellenwert t2 Uberschreitet, 
30 folgt Zustand 51, der mit "Bringe signif ikantes Spektral- 
modell auf neuesten Stand" beschrieben ist. Ist der Ein- 
gangspuffer des Abtastzahlers NSAMP nicht gefullt, dann 
kehrt der Ablauf zum Zustand 48 fur die nachste 5 ms-Ab- 
tastung zuruck. Wird der Eingangspuf f er des Abtastzahlers 
35 NSAMP bei einer grofien Spektralanderung gefullt , dann geht 
der Ablauf direkt zum Zustand 50, wo dies als Wortende 
bestimmt wird und es folgt Zustand 52, in dem die Her- 
stellung der Musterubereinstimmung beginnt. Wird der Em- 
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1 gangspuffer des AbtastzShlers NSAMP aufgrund eines kurzen 
Wortes nicht gefUllt, dann ergeben sich schlieMich keine 
Spektralanderungen in den Abtastungen und der Ablauf geht 
zura Zustand 49 wie zuvor beschrieben. 

5 

Bei dem Terminal des vorliegenden Ausf Uhrungsbeispiels 
ist eine vorbestimmte Anzahl von Sprechern autorisiert, 
das Terminal zu verwenden und Beispiele vorbestimmter 
Worter und Phrasen, wie sie von jedem Sprecher gesprochen 

10 warden, sind in dem Austauschscheibenspeicher des Rech- 
ners 20 gespeichert . . Die Worterkennungseinheit 16 dient 
zur UnterstUtzung bei der Sprechererkennung bei einer et- 
was vereinfachten Ausf Uhrungsf orm . Wenn ein spezieller 
Sprecher auf das System zugreift, identif iziert er sich 

15 sprachlich durch Name, Stand und Personalnummer oder ir- 
gendeine andere Identif izierungszahl . Der Beginn und das 
Ende jedes Wortes wird von der Worterkennungseinheit 16 
festgestellt, die den Personalrechner 20 von dem gespro- 
chenen Wort in Kenntnis setzt. Eine elektrische Darstel- 

20 lung von LPC-Parameterdaten der LPC-Analysiereinheit 15 
wird uber den gesprochenen Bereich jedes Wortes gemit- 
telt, dann in der CPU 18 mit einem gespeicherten Beispiel 
vom Rechner 20 zur Obereinstimmung gebracht. Die Ergebnis- 
se der ubereinstimmungsprUf ung werden mit einem Schwellen- 

25 wer t verglichen, urn eine Entscheidung Uber die Identitat 
des Sprechers herbeizuf Uhren . 

WShrend der Benutzer das System weiter verwendet, erkennt 
der Rechner 20 Stellen in Satzen, wo die Anzahl moglicher 

30 nachster Worter verhSltnismaBig gering ist, wie dies jetzt 
beschrieben wird. An diesen syntaktischen Knoten ladt der 
Personalrechner 20 Muster oder Schablonen, d.h. gespei- 
cherte Modelle von Wortern aller Sprecher fUr diese nach- 
sten moglichen WQrter. Beim nSchsten gesprochenen Wort er- 

35 kennt die Worterkennungseinheit diese Tatsache und ver- 
gleicht die in das System geladenen Muster mit der Dar- 
stellung des gerade gesprochenen Wortes. Die Worterkennungs- 
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1 einheit zeigt das gesprochene Wort an der Sichtanzeige des 
Rechners 20 und auch den Sprecher an. Der Rechner 20 be- 
sitzt einen Abstimmzahler fUr jeden der moglichen autori- 
sierten Sprecher. Der Zahler des angezeigten Sprechers 
5 wird mit jedem erkannten Wort aufgezShlt bis zu einem Ma- 
ximum von 25 und die Zahler aller nichtangezeigten = Spre- 
cher werden abwarts gezShlt bis zu einer unteren Grenze 
von Null. Wird beispielsweise eine Geheiminf ormation an- 
gefordert, dann werden die Zahler geprUft und als identi- 

10 fizierter Sprecher derjenige bestimmt, dessen Zahlung Uber 
15 liegt, wahrend alle anderen Zahlungen unter 8 liegen 
mussen. Werden diese Bedingungen nicht erfUllt, dann wird 
die Geheiminf ormation abgelehnt. Das System kann den Be- 
nutzer im weiteren Identif ikationsalgorithmus auffordern, 

15 beliebige Worter zu sprechen, bis ein eindeutiger Gewin- 
ner mit entsprechendem Abstand angezeigt wird, oder das 
System kann in seinem normalen Ab'lauf fortfahren und zu 
einem spateren Zeitpunkt die Information nochmals anfor- 
dern. Das System kann eine Knderung des Sprechers inner- 

20 halb van maximal 10 Wortern erkennen. Auch ist der Spre- 
cheridentifikationsalgorithmus dem Benutzer im allgemei- 
nen erkennbar und er weifc nicht, daB seine Stimme wMhrend 
des normalen Ablaufs analysiert wird. 

25 Die Verifikationssubsystemsoftware wird von den Austausch- 
platten des Rechners 20 geladen und dieses Laden wird 
durch Prufsummentests verifiziert. Als nachstes werden 
statistische Muster jedes bekannten Sprechers ebenfalls 
geladen. Wahrend der unbekannte Sprecher spricht , werden 

30 Langzeitstatistiken der LPC-Ref lexionskoef f izienten in 

Echtzeit tlber die letzten 30 Sekunden der Sprache berech- 
net. Diese Statistiken schlieSen eine Mittelwert- und 
Standardabweichung der Tonhohe und die ersten 10 Ref lexions- 
koef f izienten ein. Am Ende jedes Wortes, wie es durch die 

35 worterkennungseinheit 16 bestimmt wurde , berechnet die 

CPU 18 die Mehalanobisabstandsmetrik zwischen dem unbekann- 
ten Wort und dem Muster jedes Sprechers. Der Mehalanobis- 
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1 abstand gewichtet den Abstand mit der FShigkeit jedes 

Messungs-Eigenfektors, um den bekannten Sprecher von der 
allgemeinen Bevolkerung zu unterscheiden . Schliefilich in- 
formiert die CPU Uber den Sprecher mit der besten uberein- 
5 stimmung und bestimmt die Genauigkeit der SchStzung durch 
den Mehalanobisabstand unter VerhSltnisbildung zur Stand- 
ardabweichung dieses Sprechers und durch das Verhaltnis 
zu der nachstbesten Ubereinstimmung . Zweideutige Ergebnis- 
se d.h., uenn die Ubereinstimmung innerhalb eines vorbe- 

10 stiramten Unsicherheitsbereichs liegt, bewirken, daB das 
System eine Entscheidung zuriickstellt , wodurch die Ge- 
nauigkeit erhaht wird . SchlieBlich wird am Ende des Nach- 
richtenaustausches dem Sprecher die Moglichkeit gegeben, 
sein Stimmenmodell durch die zusammengesetzten Statisti- 

15 ken dieses Nachrichtenaustausches auf den neuesten Stand 
zu bringen. 

Die LPC-Analysiereinheit 15 und die CPU 18 besitzen auch 
eine Trainingsarbeitsweise bei der sich diese Statistiken 
eines gegebenen Sprechers ergeben und in der die Eigen- 
fektoren und Werte des Modells dieses Sprechers berechnet 
werden. Das System kann diese Daten zur Speicherung auf 
den Austauschplatten des Rechners 20 aufwarts laden. 
Wahrend die Worterkennungseinheit 16 als getrennte Ein- 
heit des Systems veranschaulicht wird, weis der Fachmann , 
dafi sie in einfacher Weise auch in die LPC-Analysierein- 
heit 15 Oder die CPU 18 eingefugt sein kann, so dafi die- 
se Einheiten die Aufgaben der Erkennung des Beginns und 
Endes eines Wortes, des spezifischen Wortes und des Spre- 
chers durchfUhren konnen. Auch konnen Schablonen Oder 
Wortmodelle, die allgemein reprasentativ fur jedes speziel- 
le zu erkennende Wort sind, an Stelle eines Wortmodells 
fttr jedes von jedem Sprecher gesprochene zu erkennende 
Wort verwendet werden, wobei nur die speziellen Worter 
35 durch die Einrichtung erkannt wUrden und nicht jedoch 
jeder spezielle Sprecher. 
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Ein typisches Beispiel einer militarischen Verwendung des 
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1 vorliegenden Systems sei nun in Verbindung mit den Fig. 7 
und 8 erlautert. Bei dieser speziellen Ausf Uhrungsform 
ist das System so aufgebaut, daB es den Verwender mit ein- 
bezieht, ein geographiscb.es Truppenmodell , Nachschub und 
5 geographische Umwelt auf den neuesten Stand zu bringen. 
Bei der grundsStzlichen Situation dieses AusfUhrungsbei- 
spiels fordert der Benutzer Information von dem Terminal 
an und, falls er richtig erkannt und geprUft wurde, wird 
die Information von einer entfernten Quelle gegeben. Es 
10 sei fUr dieses spezielle Ausfuhrungsbeispiel angenommen, 

daB das System um einen halben Bildschirm nach links, rechts 
oben Oder unten schwenken kann, Oder nach Norden, Suden 
Osten Oder Westen bei n-Meilen. Es soil ferner die Fahig- 
keit besitzen, eine Fokusierte oder eine breitere Darstel- 
15 lung zu bieteri, und zeigt wesentliche geographische Merk- 
roale.etwa eines eines Landesstaates einer Stadf von Gren- 
zen, StraBen oder Hilgel an. Bei der speziellen Anwendung 
des Systems werden 55 Worter und ein Syntaxnetzwerk mit 
semantischen Zuordnungen zu jedem Knoten des Netzwerks 
verwendet, wie dies Fig. 7 veranschaulicht . Ein Syntax- 
netzwerk leitet interaktiv die Auswahl von moglichen, 
nachsten Wortern von alien dem System bekannten Wortern 
im Kontext aller Satze , die das System versteht. Der Spre- 
cher kann jederzeit sagen "L5schen" um einen neuen Satz 
zu beginnen, oder er kann sagen "Ausloschen" um in ei- 
nem Satz ein Wort zu ersetzen. Worter wie »UH, THE" , Atem- 
gerSusch und Zungenschlagen sind ModellwSrter , die ge- 
speichert werden und die von dem System absichtlich igno- 
riert werden. Das System hilft dem Benutzer interaktiv, 
wenn dieser spricht. Erwartet das System von ihm , daB er 
einen Satz beginnt, d.h., wenn die Worterkennungseinheit 
16 den Anfang eines ersten Wortes feststellt, dann listet 
es alle mSglichen ersten Worter des Satzes auf, wie dies 
in Fig. 8 A angegeben ist. Nach Sprechen des ersten Wor- 
tes wird auf dem Schirm das f estgestellte Wort angezeigt 
und es werden alle mbglichen zweiten Worter gemaB Fig. 8B 
aufgelistet. Dies setzt sich fort bis zum Ende des Satzes 
wenn die Daten fUr eine ubertragung uber dem Extremschmal 
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1 band Nachrichtenkanal zusammengesetzt werden. Der Sprecher 
kann mit der Zeit sehen, welche nachsten Worter erwartet 
werden. Der Rechner 20 Uberwacht die Genauigkeit der Wort- 
Ubereinstimmungen. FSllt irgendein Wort unter einen adap- 
5 tiven Schwellenwert , dann wiederholt die Synthetisierein- 
heit 22 den Satz und fragt nach fizierung vor der 

Durchfilhrung. Werden alle Worter ganz klar erkannt, dann 
gibt die Synthetisiereinheit22 den Satz nach Vervollstandi- 
gung als Echo wieder, wShrend der Rechner die Nachricht 
10 aussendet." 

Nach Verarbeitung jedes gesprochenen Wortes wird dieses 
in den Speicher im Rechner 20 gebracht , wo die gesamte 
Nachricht in ein Digitalsignal fttr eine minimale Oder 

15 fast minimale Anzahl von Bits codiert wird. Die Worter 

konnen in codierter Form gespeichert werden, so -dafi sich 
der erforderliehe Speicherplatz reduziert. Da das System 
eine vorbestimmte Anzahl von Wortern enthalt, die es er- 
kennen kann, d.h., eine vorbestimmte Anzahl von Wortmo- 

20 dellen oder Mustern, so kann die Codierung in einer speziel- 
len Nummer fur jedes der Wdrter bestehen. So kann im Bei- 
spiel der Fig. 8 den Wortern "shift focus " die Nr. 12 
und dem Wort "south" die Nr. 18 zugeordnet werden, wahrend 
die Ziff. 2 durch die Nummer 21 dargestellt wird usw. Da 

25 diese Worter durch die gleichen Nummern in dem entfernten 
Terminal 12 dargestellt werden, wandetl der Personalrech- 
ner 20 diese Nummern in ein Digitalsignal urn und ubertragt 
das Signal zu dem entfernten Terminal 12, wo das Signal 
in Nummern und dann in Worter zuruckgewandelt wird. 
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Ein zweites Codierungsverf ahren , das bei dem vorliegen- 
den Ausfuhrungsbeispiel angewandt wird, besteht darin, 
jeden Buchstaben jedes Wortes in der ASC Il-Codierung zu 
codieren. Dieses Codierungsverf ahren hat einige Vorteile , 
obwohl es einige wenige Bits mehr pro Wort benotigt. Ei- 
ner dieser Vorteile besteht darin, dafc das ausgesandte 
Signal direkt zu den meisten heutigen elektrisch arbeiten- 
den Druckvorrichtungen Ubertragen werden kann. In der ASC 
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ii Codierung wird jeder Buchstabe durch 8 Bits dargestellt. 
Wenn somit die Musternachricht der Fig. 8 (shift focus 
south 22 miles- ist , dann ist die filr die ubertragung die- 
ser Nachricht in der ASC II Codierung erf orderliche Bit- 
zahl gleich 260. Werden 20 Bits zur Beschreibung von Ei~ 
genschaften der Stimme des Spreehers verwendet und er- 
fordern Synchronisationsf ehlererkennung und Steuersignale 
weitere 30 Bits, dann ist die vollstandige Nachricht etwa 
310 Bits lang. Es ist somit mSglich eine Nachricht mit ei- 
ner Lange 'von etwa 4 Sekunden und mit 310 Bits, d.h., mit 
etwa 77 Bits pro Sekunde zu Ubertragen. 

Wird wie zuvor beschrieben ein Codierungssystem verwendet, 
bei dem jedem Wort eine spezielle Nummer zugeteilt ist, 
dann ist die Situation folgende: nimmt man an, daB die 
gesprochene Nachricht eine von 100 moglichen Nachrichten- 
typen mit jeweils gleicher Wahrscheinlichkeit ist, dann 
sind 7 Bits erforderlich um , um den gramatikalischen 
Aufbau der Nachricht zu beschreiben. Werden 20 auswahl- 
bare Worter in dem System gespeichert die ausgewahlt wer- 
den kSnnen, um verschiedene Positionen in der Nachricht 
einzunehmen, dann definieren 8 Bits welches Wort in je- 
der gewiinschten Position in der Nachricht verwendet wur- 
de. Fur die Musternachricht, wie Sie zuvor angegeben wur- 
de, namlich fur "shift focus south 22 miles" definieren 
7 Bits die Nachricht Syntax, 40 Bits definieren die 5 
auswahlbaren Wortern an Positionen innerhalb der Nachricht, 
wo eines von mehreren Wortern ausgewahlt werden kann , 
und etwa 20 Bits konnen die Eigenschaf ten der Stimme der 
Sprecher angeben, so daft sich eine Gesamtzahl von 67 Bits 
ergibt. Werden wiederum etwa 30 Bits fur die Synchronisa- 
tionsf ehlerkorrektur und Steuersignale angesetzt, dann 
umfafit die gesamte Nachricht etwa 97 Bits oder etwa 25 
Bits pro Sekunde. 

Die Synthstisiereinheit 22 des vorliegenden Ausfuhrungs- 
beispiels ist im Handel erhaltlich und wird von der Firma 
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Mikromint Inc. als Mikrovoxsynthesizer vertrieben. Der 
Fachmann erkennt selbstverstandlich , daB die LPC-Analy- 
siereinheit 15 einen Synthetisierer aufweist , ( vgl . Fig. 2) 
und an Stelle der Synthetisiereinheit 22 verwendet, wenn 
die Sprechererkennung in dem System eingeschlossen ist 
und wenn es erwUnscht ist, daB die syntetisierte Stimme 
der Stimme des ursprilnglichen Sprechers gleicht . Die 
Synthetisiereinheit 22 wurde jedoch hier beschrieben und 
zwar der Einfachheit und des besseren Verstandnis halber. 
Von der Be.schreibung der Synthetisiereinheit 22 ergibt sich 
fur den Fachmann ein vollkommenes Verstandnis der Arbeits- 
weise des in der LPC-Analysiereinheit 15 vorhandenen Syn- 
thetisierers. Eine vollstandigere Beschreibung des Syntheti- 
sierers der in der LPC-Analysiereinheit 15 enthalten ist, 
ergibt sich aus der zuvor genannten Patentanmeldung und 
aus der US-Patentanmeldung rait der Bezeichnung "Speech 
Synthesizer With Smooth Linear Interpolation", mit dem 
Aktenzeichen 267 203, eingereicht am 26 Mai 1981. 

Die Syrthetisiereinheit 22 ist ein f reistehender inteligen- 
ter Mikroprozessor , der ASCII Text in gesprochenes Englisch 
umwandelt. Sie besteht aus einem M 65 02 Mikroprozessor 55, 
einer 9600 BPS UART-Teinheit 57 als serielle Schnittstelle 
einem RAM-Speicher 59 mit einer Speicherkapazitat von 2K 
Bits einem lbschbaren, programmierbaren Nur-Lesespeicher 
EPR0M 61 mit 8 K-Bits , einem SC01 Votrax-Stimmsyntetisier- 
er 63, einem taktenden und programmierbaren Teiler 65 und 
verschiedenen Puf fern , Steuerungen und Verstarkern. Die 
Synthetisiereinheit 22 verwendet einen Algorythmus , der 
grammatikalisch Serieneingangsdaten in WSrter umsetzt, 
dann die englischen Ausspracheregeln verwendet und einen 
Lautstrom aus dem ausgesprochenen zu erzeugen. Dieser 
Lautstrom steuert dann den SprachsyntHetisierer 63- Der 
Sprachsynthetisierer 63 besitzt einen ROM-Speicher der 
Laute als eine Folge von 1 bis 4 TSnen in statigem Zu- 
stand von spezifischer Dauer und mit spezifischem Spek- 
trum erzeugt. Die Funktion der Synthetisiereinheit 22 be- 
ruht auf den Buchstaben zu Laut-Umsetzungsregeln , die 
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1 in dem Mikroprozessor 55 angewandt werden, sowie auf der 
Laut-Sprachensyntese in dem Sprachsynthetisierer 63- Der 
Mikroprozessor 55 liest bis zu 1500 Zeichen - in seinen in- 
ternen Seitenpuffer von der seriellen Schnittstelle 57.. 

5 Er identifiziert Phrasengruppen durch ihre Punktuation 

und Worter durch ihre Zwischenraumbegrenzer . Er verwendet 
die Phrasengruppengrenzen urn eine geeignete deklarative 
Oder fragende Tonhohen- und Dauerbeugung auf die Phrase 
anzuwenden. Pro Wort wird jedes Zeichen von links nach 
10 rechts Uber das Wort abgetastet. Wird ein Zeichen gefun- 
den, bei dem die linken und rechten Kontexterfordernisse , 
(benachbarte Zeichen) erfUllt sind, dann wird die erste 
anwendbare Regel fur das Zeichen verwendet, um es in ei- 
nen Laut umzusetzen . 

15 

Der Sprachsynthetisierer 63 ist ein CMOS-Typ , der aus einem 
digitalen Codeumsetzer und einem elektronischen Modell der 
Vokalspur besteht. Intern ist eine Lautsteuerung vorgesehen, 
die eine 6-Bit-Laut- und 2-Bit-Tonhdhencodierung in eine 
20 Matrix von spektralen Parametern umsetzt , die das Vokal- 
spurmodell zur Synthetisierung der Sprache einstellt. Die 
Ausgangstonhohe der Laute wird durch die Frequenz des ge- 
get&kteten Teiler 65 abgegebenen Taktsignal gesteuert . Fei- 
ne Schwankungen der Tonhohe konnen induziert werden, um 
25 eine Beugung hinzuzufUgen , was verhindert, daft die syntheti- 
sierte Stimme monoton und maschinell klingt . Wahrend der 
vorliegende Algorrhythmus einen englischen Text in Sprache 
umwandelt, ist es fUr den Fachmann verstandlich , daft die 
Sprachalgorhythmus genauso in anderen Sprachen geschrie- 
ben sein kSnnen. 64 Laute definieren die englische Sprache 
und jeder Laut wird durch eine 6-Bit-Codierung gekennzeich- 
net, die von dem Mikroprozessor 55 an den Sprachsyntheti- 
sierer 63 angelegt wird. Die Lautsteuerung s.etzt dann die 
Bits in die zuvor erwahnten Spektralparameter um . 
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Damit die synthetisierte Sprache moglichst gut dem identi- 
fizierten ursprUnglichen Sprecher gleicht , konnen verschie- 
dene Codierungen senderseitig zu dem empfangenden Gerat 
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1 Obertragen werden, wobei Daten Uber die spezielle Aus- 
sprache des Sprechers bezuglich dieser Worte beinhalten. 
Dies kann sehr einfach dadurch erreicht werden, dafi eine 
Sprecheridentif ikat ionscodierung ausgesandt wird, die der 
5 EmpfSnger zum Aufsuchen der Vokalspurlange und des mittler- 
en Tonhdhenbereichs verwendet. Alternativ dazu kann der 
Sender auch Polynomkoef f izienten aussenden , die die TonhShen 
kontur Uber der Lange des Satzes beschreibt , sowie einen 
VokalspurlSngenmodif izierer . Diese Polynomkoef f izienten 

10 ermoglichen, daS der richtige Tonhdhenbereich , Tonhohen- 
abfall und die Betonung mit sehr wenigen Bits Ubertragen 
werden. Der Vokalspurlangenmodif izierer errnSglicht es 
dem Syntetisierer eine Polynominterpolation der LPC-Re- 
f lektionskoeffizient durchzuf uhren , wodurch die 

15 Vokalspur linger oder kurzer gemacht werden kann als bei 
dem gespeicherten Muster, das bei den Buchstaben- Zu- Ton- 
Regeln verwendet wird. 

Es wurde sorait ein Extremschmalband-Ubertragungssystem 
20 offenbart, bei dem jedes Terminal menschliche Stimme in 
Digitalsignale mit einer Geschwindigkeit von weniger als 
300 Bits pro Sekunde umsetzt. Das Terminal besitzt fer- 
ner die Fahigkeit Digitalsignale zu empfangen, die re- 
prasentativ fur eine menschliche Stimme sind , und die 
25 menschliche Stimme mit den gleichen Eigenschaf ten wie 

die des ursprunglichen Sprechers zu synthetisieren . Aufier- 
dem besitzt jedes Terminal die Fahigkeit Worter und den 
speziellen Sprecher mit sehr hoher Genauigkeit zu erken- 
nen . 
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